合成数据:大模型训练和应用的新方案
导语
在上篇中,我们阐述了合成数据的基本认知与思考,本篇将集中探讨合成数据在大模型训练与应用中的作用。
基础大模型训练所需的数据类型包含两大类,一是用于预训练(Pre-training)的世界知识,二是用于对齐(Alignment)的数据。合成数据作为真实数据的一种替代,现阶段虽然在预训练占比不高,但未来发展潜力巨大,可作为一个“新物种”密切关注;目前合成数据多应用于提升对齐阶段的数据获取效率,增强模型安全和可靠性。
(1)合成数据是预训练语料的新物种
上期提到,模型预训练阶段是通过大量无监督学习构建基础能力。语言大模型需要各类世界知识,包括网页、书籍、新闻、代码等;而多模态又需要视频、图片、音频等语料。那么合成数据作为新物种,能对模型的训练语料起到哪些补充作用呢?
首先,合成数据可应用于多模态数据的生成。最近火爆的Sora文生视频大模型,里面用到了大量由游戏引擎合成的视频数据作为训练集,以提高生成质量。此外,利用模拟器生成的多模态场景数据还广泛应用于具身智能机器人、自动驾驶、AI for Science等场景的训练。利用模拟模型生成多模态数据可以更好满足模型对训练数据差异化的需求,例如通过有效“过采样(oversample)”罕见事件或灾难性事件,以确保模型能够针对更广泛的输入保持鲁棒性。而伴随生成式人工智能走向更通用的AGI,模型训练将不仅从文字中学习,也会从声音、图片和视频中学习,就更需要多模态的训练数据。因此,我们判断通过合成的多模态数据进行训练的需求还会持续且大幅增加。
其次,合成数据还可应用于高价值领域知识的生成。核心是合成数据能通过对现有数据的深加工,将之前不能被用于训练的数据转化为可用,提升模型对数据利用的可能性。例如工业制造领域,利用合成数据,可以把生产、制造等工艺流程相关的原始数据,结合行业知识图谱,转化为可供大模型学习的工业语料,以缓解行业语料短缺的问题。该过程分为三步:一是将原始数据(Data)转变为信息(Information):即将非自然语言描述的内容(如工艺生产中的操作行为或时序数据)转化为大模型可读的结构化信息(操作记录)。二是将信息(Information)提炼为知识(Knowledge):仅有操作记录并不能直接提供有效知识,但将多条结构化信息与行业的知识图谱、专家经验相结合,可以产出有价值的行业知识(如在什么温度下应该如何操作,好处是什么)。三是将得到的知识泛化:利用大模型的推理能力,将相对单一的知识进行多样性拓展,积累更丰富的行业语料。由此看出,大模型可以利用Data、Information、Knowledge等不同层次的内容,打通数据利用的模式。我们判断,通过合成数据拓展对数据利用的可能性,生成领域知识的趋势是“精”,即对语料质量要求高,且是不可或缺的。因为大模型只有在预训练中学习过领域知识,才能在后期利用行业语料进行SFT训练时激发出更好的效果,更容易应用于垂直领域。
综上,我们认为合成数据作为预训练语料的新物种,发展潜力巨大,特别是在多模态数据和领域知识生成方面值得密切关注。
(2)合成数据可提升对齐阶段数据获取效率(SFT+RLHF)
对齐数据以人类高质量反馈为主,是包含监督微调阶段(SFT)的,基于人类反馈的强化学习(RLHF)。此方法主要在以下几方面遇到问题:一是数据获取的成本更高,二是人类评估的准确性和一致性,三是模型通常选择避免回答敏感和有争议的问题,降低模型的整体效用。如果引入合成数据作为真实数据的补充和替代,能否缓解这些问题呢?
合成数据最大的优势是可以大幅提升对齐数据的获取效率,“如果掌握了合成数据技术,对齐的成本可能会降低好几个数量级,或用一样的投入产生更大数量级的数据,竞争格局就会发生变化”。这种对合成数据的应用是“从人工智能反馈中进行强化学习(RLAIF)”。通常是用一个较大规模模型产出合成数据,生成指令及输入和输出样本,过滤掉无效或重复信息,自动化微调出性能较好的小模型,全过程中几乎无需人类标注。这不仅大幅降低了标注成本,也能缓解人工对齐导致模型对敏感问题拒答的情况。例如斯坦福大学发布的70亿参数对话大模型Alpaca,正是采用此类Self-instruct 方法,用OpenAI的API自动生成指令数据进行微调。还有一种基于RLAIF 新思路探索,希望在不引入外部模型的前提下实现自动化微调。例如Self-play,在满足一定条件时,利用合成数据进行自我对抗微调(t+1代的模型尝试将t代模型的输出与真人的输出区分开),得到了比RLHF更好的效果。再如Claude3中用到的Constitutional AI,让AI系统在遵循预先设定的原则下,使用模型自身生成的反馈和修正意见来进行自我改进,得到一个既能生成无害内容,又不规避有害问题的模型。同时另一种对合成数据的应用是“从人类和人工智能反馈中进行强化学习(RLHAIF)”,该方法整合了人类和AI元素以提供监督。有研究表明,在利用AI协助人类评估模型有效性时,模型生成的批评有助于人类发现可能错过的缺陷,提高人类评估的准确性。
合成数据在LLM+推荐系统的应用
传统的推荐系统是基于用户海量的行为序列(如浏览、点击等)进行个性化建模。利用协同过滤进行召回,找出用户之间或物品之间的相似性,然后基于相似性来进行个性化的排序和推荐,以提升点击率和转化率。但由于通过点击等被动且效率不高的方式来调整推荐结果,算法自身存在局限性,具体表现为:1)存在信息茧房,用户点击什么就推送什么;2)冷启动困难,需要大量数据积累;3)缺乏可解释性,用户不理解推荐逻辑;4)依赖用户行为信息,有个信泄露风险。
(1)通过合成数据实现LLM与推荐系统结合,推理用户真实需求
在推荐系统中引入LLM,是希望利用大语言模型的内在知识,推理用户的真实需求。类似真实导购员,他们在发现用户特征和行为之后,先推测潜在需求,再进行相关推荐。技术路径分为以下三步:第一,通过提示词生成器,由算法根据上下文信息、用户需求信息构建定制化的提示词(Personalized Prompt),此即为合成数据。第二,用合成数据对预训练大模型做提示词微调(Prompt-tuning)。提示词微调相比传统微调范式(Fine-tuning)有两大优势,一是更擅长将下游任务转化为已训练良好的预训练任务,对冷启动场景更适合,从而减少了推荐系统对用户特征数据的依赖;二是模型训练过程需要调整的参数数量更少,效率更高。第三,在实际应用中,利用Prompt-tuning后大模型的推理能力,给出更为合理的、用户能够理解的推荐理由,让用户更容易理解推荐内容。
(2)优势:效能提升与隐私保护
将大模型及合成数据应用于推荐系统的最大优势是对于效能的提升。1)丰富性:由于大模型具有推理能力,通过推荐思路可以无限向外扩展,丰富的内容可以引导用户的发现性。甚至大模型可以针对用户对信息的需求产出新的个性化内容,让推荐的素材库变得更丰富。2)无需冷启动:由于大模型具有少样本甚至零样本学习的能力,推荐可以依赖大模型内在的客观世界知识,不需要大量场景数据的积累,就能快速迁移和复用。3)可解释性:将大模型的推荐思路以推荐理由的形式外化给消费者,可以让用户更好理解推荐的逻辑。甚至可以通过LLM与用户的多轮交互,响应实时诉求,做到可交互性。
将大模型及合成数据应用于推荐系统的另一大优势是对隐私的保护。在推荐系统和深度检索系统中往往需要处理大量用户数据,如何在不侵犯用户隐私的情况下进行有效训练是一个难题。Carranza et al. 提出用差分隐私的语言模型(Differential Privacy Language Models)创造一批“加噪声”的查询数据,这些合成的查询数据在统计上代表了原始数据,但不包含任何个人可识别的信息。然后用这些合成数据来训练深度检索系统,即使这个系统学到了很多东西,也不会侵犯到真实用户的隐私。这为隐私保护和高效检索与推荐之间找到了平衡点。
对合成数据作用的小结
高质量数据是大模型技术发展的主要瓶颈之一。可供大模型学习的数据传统上来自于人类的创造和制作,其规模、类型和质量因客观条件的不同存在较大差异,在大模型强大的无监督数据学习能力面前,能够进一步提升大模型关键能力、让大模型和人类价值对齐的高质量数据愈发稀缺。合成数据打开了大模型训练数据来源的想象空间,通过生成corner case的小样本数据以及因为合规性问题而无法直接通过观察而获得的数据,可以弥补因客观条件或制度限制(例如隐私合规)造成的数据样本不足的缺陷,在输入端纠正数据在采集和处理过程中人为引入的偏误(bias),在保证数据合规性的基础上提高了数据分布的合理性和客观性。
在大模型预训练阶段,合成数据将在多模态和领域知识生成中发挥重要作用。可行的应用方案是按照一定比例将合成数据与真实数据进行混合,用于模型性能优化,提升泛化能力。而合成数据在模型对齐能力的提升则可以解决目前模型对齐阶段人类回答标准不统一、准确性不足、成本较高和拒答率较高的问题,以高性能模型实现知识蒸馏而得到的高质量合成数据,可以为下游开发提供高效的对齐数据来源,从整体上提高各种规模尺寸模型的对齐能力,促进模型安全。
下期预告
接下来,我们会重点分析合成数据在安全性和可及性方面的问题,并基于此给出对合成数据治理的政策建议。敬请关注《合成数据:治理之智》。
—— END——
作者|王峥、傅宏宇、袁媛 阿里研究院AI政策研究中心
阿里研究院AI政策研究中心,依托阿里巴巴集团先进的AI科技能力、丰富的AI应用场景、负责任的AI技术生态,总结沉淀AI发展和治理实践经验和方法案例,为AI政策制定实施提供科技企业的智识建议。
责编|崇修(转载及媒体合作请评论区或邮箱留言)